查看原文
其他

从DFT到机器学习,NC杂志编辑在兴奋什么?

唯理计算 科学指南针一模拟计算联盟 2022-07-09

在预测精度和计算成本之间达到最佳平衡的计算化学方法,有望加速新分子和新材料的发现。在此,《自然·通讯》杂志编辑们表示,渴望继续参与这一令人兴奋和迅速发展的领域。





以下,就是来自《自然·通讯》杂志编辑们,对近些年发表在《自然·通讯》杂志上有关计算化学的最新文章相关回顾。

接下来,让我们一睹为快。


理论和计算模型在材料研究中是普遍存在的。通过显著缩短时间,建模可以显著帮助将基础材料研究的结果与实际材料生产联系起来。多年来发展起来的计算化学方法已经成为一种无价的工具,提供了对化学过程的深刻见解,超出了可以通过实验直接测量的范围。一个新的集合[https://www.nature.com/collections/ncomms-compchem]展示了开发这些计算框架的最新进展(小编:后期,我们会对这一集合的文章,进行逐一系列的中文介绍,敬请期待!)。

多年来,密度泛函理论(DFT)被认为是研究分子、材料和凝聚态体系的电子结构的首选方法,使得在精确度和计算成本之间实现了最佳的权衡。这种平衡可以通过在密度泛函中包括复杂的多体电子-电子相互作用来实现,即交换和相关泛函。20世纪80年代和90年代,分子模拟取得巨大进展的关键在于开发出越来越精确的量子力学近似,以便攀登所谓的雅各布的阶梯,每一级代表复杂度的增加和与精确交换和关联函数的近似程度的减少。这导致了所谓的化学建模革命,正如Tkatchenko在他题为“化学发现的机器学习”的评论中强调的那样。

考虑到随着包含分子和材料的可靠量子力学特性的精心整理的数据集的增加,世界已经发生了怎样的变化,以及我们收集大数据的能力如何大大超过了我们分析它的能力,一个完全不同的策略是思考看似不相关的数据和属性如何相互影响,研究它们之间隐藏的相互联系。在这种情况下,提高计算方法的预测能力的另一种方法是用数据驱动的搜索代替物理驱动的路径。这催生了将机器学习(ML)技术应用于分子和材料科学的大数据驱动科学。尽管ML方法在从大量数据中识别相关性方面已经使用了几十年,但直到最近,计算界才开始大量投资于基于材料科学家(具有实验和理论专业知识)和计算机科学家之间协同合作的项目基础设施,以开发旨在发现新分子和材料的ML方法。将电子结构计算和统计分析工具结合起来的ML方法正在开发中,当注入越来越多可用的分子大数据时,可以作为探索广阔化学空间的标准方法的替代品。在这些正在进行的努力中,计算界目前面临着理论和技术上的挑战。

对发生在大范围和时间尺度上的化学过程的计算研究必须平衡计算成本和准确性:电子结构方法非常精确,但计算费用昂贵,而原子模型,如力场,虽然计算上负担得起,但缺乏对新系统的可移动性。

在通过迁移学习来接近具有通用神经网络潜力的耦合聚类精度方面,Smith等人讨论了实现两种方法的最佳效果的理想解决方案是开发一种通用的神经网络潜力,该神经网络可以达到CCSD(T)精度(考虑单、双和摄动三重激励的耦合簇),量子化学的金标准,但表现出可转移性在一个广阔的化学空间。对于实际计算来说,最重要的是,由此产生的势是DFT方法和标准力场的一个有吸引力的替代方案:它广泛应用于构象搜索、分子动力学和反应能的计算,比CCSD(T)计算快数十亿倍

在传统的DFT建模中,试图增加交换和关联函数的非局域性来努力实现更精确的近似,会导致计算成本的急剧增加,使得相关的计算工作不切实际。这方面的另一种方法是开发专门的ML函数,当在训练范围之外使用时,其总体精度不会显著降低。

在机器学习中,Dick和Fernandez-Serra通过引入一个明确依赖于电子密度和隐式依赖于原子位置的完全机器学习函数解决了电子密度的精确交换和相关泛函的问题。它接近高水平量子化学方法的准确性,同时在一个可负担的计算成本上。尽管这些函数是为特定的数据集而创建的,因此并不是通用的,但它们显示出了在相同类型的化学键合中从气体到凝聚相以及从小分子到大分子的良好可转移性。

在分子模拟中使用的机器学习方法的一个共同特点是,由于电子属性是从量子化学数据中学习的,所以每个单独的模型通常仅限于探索这些特定的属性。由于一个假想化合物的所有物理和化学特征都可以由它的基态电子波函数推导出来,解决这个问题的一种方法是用预测基态波函数的ML模型在ML和量子化学之间建立直接联系,正如Schutt等人在用分子波函数的深度神经网络统一机器学习和量子化学时所讨论的那样。这些作者介绍的深度学习方法提供了对实际计算反应化学所需的电子性质的全面了解,如电荷密度、键序、偶极矩和四极矩,具有类似力场的效率。此外,这种方法可能使性质驱动的化学结构探索成为可能,为反化学设计带来希望。

虽然计算技术的快速发展是令人兴奋的,但这并不意味着传统的深量子化学专业知识已经过时:相反,标准的高层次理论方法对于解决计算化学的基本问题仍然是必不可少的。Liu等人从相关的126维波函数中给出了苯的电子结构的一个很好的例子。运用高阶相关波函数理论,作者重述了苯的电子结构,这是多年来竞争理论的试验台。与传统的用分子轨道(MO)理论来描述电子结构不同,作者依靠一种方法来识别和可视化波函数片,称为动态泰森多边形法大都市抽样。这种高水平理论的应用使他们能够揭示苯中电子相关的基本效应,并显示出其对交错凯库勒结构的偏好,而MO理论对电子结构的解释忽略了波函数在同类自旋交换时是反对称的。

ML算法和自然语言处理方法也为优化和自动化反应过程提供了新的可能性。按需合成小药物是这一领域的关键,正向合成(给定一组反应物,预测产物)和逆向合成(给定一个目标,预测反应物和试剂)都能从最近的建模进展中获得巨大好处。反应预测通常被认为是反应物、反应物和产物的简化分子输入输入系统(SMILES)字符串(一种基于文本的表示)之间的机器转换问题。最终的目标是实现人工精制的化学配方文件,以提供给机器人平台,然后以自动化的方式执行实际的合成。这里的一个挑战是,需要从专利和科学文献中提取化学指令,并将它们转换为机器可读的格式。在从实验程序中自动提取化学合成动作时,Vaucher等人通过开发一个深度学习模型来执行有机合成反应的化学指令转换,在实现机器人系统对任意反应的自动执行方面迈出了重要的第一步。

虽然数据驱动的计算方法显然有希望加速新分子和材料的发现,但目前的应用还只是在探索阶段的开始。任何ML方法的可靠性都依赖于用于模型训练的大量数据集的可用性,在数据不丰富或难以生成的情况下,这是当前的瓶颈。由于需要大量的微观和宏观分子特性的数据集,未来的工作应该以发展更可转移的模型为目标,这些模型采用通用近似,可以处理局部化学键合和同一脚上的非局部相互作用。

作为最终目标,希望开发不仅能够提供预测模型而且能够提供可解释模型的ML方法,以刺激新科学概念的形成和对给定研究领域的更深理解,正如Hase等人在他们的透视图中建议的,用机器学习设计和理解光采集设备。

《自然·通讯》编辑:我们渴望在这一令人兴奋和快速发展的领域继续我们的贡献。在我们认识到标准的高级计算框架的重要性的同时,我们也认识到数据驱动的ML方案在加速发现具有目标属性的材料系统方面的巨大潜力。我们坚信,包括计算化学家、计算机科学家、实验化学家和材料科学家在内的跨学科的协同努力,将在促进新分子和材料的合理设计方面发挥关键作用。
“虽然我们承认标准的高级计算框架的重要性,但我们也意识到数据驱动的ML方案在加速发现具有目标特性的材料系统方面的巨大潜力。” 


做计算,学计算,请认准唯理计算                                                                 

——您身边更值得信赖的计算团队


唯理计算可以提供计算服务、培训课程、超算租赁、服务器配置采购等,有需要的小伙伴,可以联系:

小唯老师:17812574221(同微信)
扫一扫添加小唯老师微信

小理老师:18210230486
扫一扫添加小理老师微信

做计算,学计算,就找唯理计算,唯理计算和您在一起!


小福利:

针对模拟计算我们有专门的沟通群,想进群的小伙伴加微信


17812574221


备注:模拟计算进群

群里可以和老师一起探讨问题,老师也会帮助解答问题的哦~









推荐阅读:

【错过后悔系】做计算,组团赢2000元现金!火热进行中!

14节正课,1节答疑,最低3折,Abaqus简单学、实惠学,免费反复学!

【服务器】金秋十月,钜惠来袭,满减加赠课,玩的就是心跳!

快看!高温超导研究加上计算化学,发了nature!

STM测试资源不好找?模拟也能得到,同样助力冲nature!

【计算化学应用】当石墨烯遇到计算化学会碰撞出怎样的火花呢?



  你“在看”我吗

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存